小扎「梦之队」首批论文上线,LLM自举进化,单步性能狂飙22% 真Meta Superintelligence Labs新作来了!LLM学会「自我改进」:只做单步训练,推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上,ExIt持续拔高模型表现,其中MLE-bench相对GRPO提升约22%。 论文 llm 梦之队 单步 单步性能 2025-09-09 12:12 2